【AI 绘画工具】最好的开源文本到图像模型,语义理解和图像质量最佳,Stable Cascade模型

Stable Diffusion 系列模型仍然是开源文本到图像模型的王者。

今天分享由 stability.ai 发布的另一个开源文本到图像模型,语义理解和图像质量都要好于Stable Diffusion 系列模型,是目前最好的开源文本到图像模型,Stable Cascade。

项目代码地址:https://github.com/Stability-AI/StableCascade

项目报告地址:https://arxiv.org/pdf/2306.00637.pdf

项目演示地址:https://stability.ai/news/introducing-stable-cascade

一、Stable Cascade模型介绍

Stable Cascade模型建立在 Würstchen 架构之上,它与 Stable Diffusion 等其他模型的主要区别在于它的工作潜在空间要小得多。

为什么这很重要?潜在空间越小,运行推理的速度就越快,训练成本就越低。

潜伏空间有多小?Stable Diffusion 使用压缩因子 8,从而将 1024x1024 图像编码为 128x128。Stable Cascade 实现了 42 的压缩系数,这意味着可以将 1024x1024 图像编码为 24x24,同时保持清晰的重建。然后,在高度压缩的潜在空间中训练文本条件模型。与 Stable Diffusion 1.5 相比,该架构的早期版本实现了 16 倍的成本降低。

因此,这种模型非常适合效率很重要的用途。此外,所有已知的扩展,如微调、LoRA、ControlNet、IP-Adapter、LCM 等,也可以通过这种方法实现。其中一些已经在训练和推理部分提供(微调、ControlNet、LoRA)。

二、Stable Cascade模型的技术框架和主要技术细节

Stable Cascade模型的技术框架是一个三阶段的文本到图像合成模型,旨在通过高效的潜在空间处理来减少计算需求,同时保持图像生成的质量。以下是主要技术细节:

1、阶段A(Stage A):

使用Vector Quantized Generative Adversarial Network (VQGAN) 进行图像编码,将高分辨率图像压缩到一个低维度的潜在空间。

VQGAN由编码器和解码器组成,编码器将图像映射到一个离散的潜在空间,而解码器则从这个潜在空间重构图像。

在训练阶段A时,VQGAN被训练以重建输入图像,同时在训练过程中随机丢弃量化步骤,以适应后续的潜在空间变化。

2、阶段B(Stage B):

在阶段A的基础上,训练一个条件潜在扩散模型(LDM),该模型在阶段A的潜在空间内进行操作。

使用一个称为Semantic Compressor的编码器,以非常高的空间压缩率创建潜在表示,这些表示用于指导扩散过程。

阶段B的模型在文本嵌入和Semantic Compressor的输出的条件下,通过扩散过程重建阶段A建立的潜在空间。

3、阶段C(Stage C):

在阶段B训练完成后,开始训练文本条件的LDM,该模型在Semantic Compressor产生的强压缩潜在表示上操作。

阶段C的模型通过扩散过程从随机噪声生成图像的潜在表示,这些表示随后被用于条件文本生成。

阶段C的模型使用ConvNeXt块构建,不进行下采样,通过交叉注意力机制进行文本和时间步长的条件。

4、训练过程:

训练是按照逆序进行的,首先训练阶段A,然后是阶段B,最后是阶段C。

阶段A的训练使用VQGAN创建潜在空间,阶段B在阶段A的潜在空间内进行扩散模型训练,阶段C则在Semantic Compressor的潜在表示上进行训练。

5、文本条件:

在阶段C中,使用CLIP-H(一个未池化的CLIP模型)进行文本条件,以确保生成的图像与文本描述相匹配。

6、图像生成(采样):

生成过程从阶段C开始,使用DDPM算法采样Semantic Compressor的潜在表示,然后传递给阶段B,最后通过VQGAN的解码器重构图像。

7、模型决策:

Semantic Compressor使用ImageNet预训练的EfficientV2 (S)作为骨干网络,因为它结合了高压缩率和良好的特征表示。

阶段C放弃了U-Net的标准架构,因为图像已经被压缩了42倍,进一步压缩可能会损害模型质量。

三、Stable Cascade模型与其他的比较结果

Stable Cascade 在视觉和评估方面都取得了令人印象深刻的结果。

根据我们的评估,在几乎所有比较中,Stable Cascade 在快速对齐和美学质量方面都表现最佳。

上图显示了使用部分提示(链接)和美学提示混合进行的人工评估的结果。

具体而言,将 Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较。

Stable Cascade 对效率的关注通过其架构和更高压缩的潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多包含 14 亿个参数,但它仍然具有更快的推理时间,如下图所示。

我是:

三万人社群——AI破局俱乐部初创合伙人(需要社群资源,来链接我) 小冰数字人合作伙伴(小冰数字人产品一手货源,来链接我) 正致力于人工智能技术在B,C端应用的技术支持和咨询服务(需要企业培训、行业解决方案,来链接我)

本文由“公众号文章抓取器”生成,请忽略上文所有联系方式或指引式信息。有问题可以联系:五人工作室,官网:www.Wuren.Work,QQ微信同号1976.424.585